细粒度视觉识别的挑战通常在于发现关键的歧视区域。虽然可以从大规模标记的数据集中自动识别此类区域,但是当仅提供少量注释时,类似的方法可能会降低效率。在低数据制度中,网络通常很难选择正确的区域以识别识别,并且倾向于从培训数据中过度拟合虚假的相关模式。为了解决这个问题,本文提出了一种自我提升的注意机制,这是一种新颖的方法,可以使网络正规化关注跨样本和类共享的关键区域。具体而言,提出的方法首先为每个训练图像生成一个注意图,突出显示用于识别地面真实对象类别的判别零件。然后将生成的注意图用作伪通量。该网络被执行以适合它们作为辅助任务。我们将这种方法称为自我增强注意机制(SAM)。我们还通过使用SAM创建多个注意地图来开发一个变体,以泳池卷积图的样式,以双线性合并,称为SAM双线性。通过广泛的实验研究,我们表明两种方法都可以显着提高低数据状态上的细粒度视觉识别性能,并可以纳入现有的网络体系结构中。源代码可公开可用:https://github.com/ganperf/sam
translated by 谷歌翻译
Industrial vision anomaly detection plays a critical role in the advanced intelligent manufacturing process, while some limitations still need to be addressed under such a context. First, existing reconstruction-based methods struggle with the identity mapping of trivial shortcuts where the reconstruction error gap is legible between the normal and abnormal samples, leading to inferior detection capabilities. Then, the previous studies mainly concentrated on the convolutional neural network (CNN) models that capture the local semantics of objects and neglect the global context, also resulting in inferior performance. Moreover, existing studies follow the individual learning fashion where the detection models are only capable of one category of the product while the generalizable detection for multiple categories has not been explored. To tackle the above limitations, we proposed a self-induction vision Transformer(SIVT) for unsupervised generalizable multi-category industrial visual anomaly detection and localization. The proposed SIVT first extracts discriminatory features from pre-trained CNN as property descriptors. Then, the self-induction vision Transformer is proposed to reconstruct the extracted features in a self-supervisory fashion, where the auxiliary induction tokens are additionally introduced to induct the semantics of the original signal. Finally, the abnormal properties can be detected using the semantic feature residual difference. We experimented with the SIVT on existing Mvtec AD benchmarks, the results reveal that the proposed method can advance state-of-the-art detection performance with an improvement of 2.8-6.3 in AUROC, and 3.3-7.6 in AP.
translated by 谷歌翻译
车道检测是自动驾驶中的基本模块之一。在本文中,我们采用了一种仅变压器的方法来进行车道检测,因此,它可以受益于完全视觉变压器的开发,并通过精细的 - 通过精细 - 通过精细 - 通过精细的 - 调整重量在大型数据集上进行全面训练。更重要的是,本文提出了一个名为Priorlane的新颖和一般框架,该框架用于通过引入低成本的局部先验知识来增强完全视觉变压器的分割性能。 PriorLane利用仅编码变压器来融合由预训练的分割模型与先验知识嵌入的功能融合。请注意,知识嵌入对齐(KEA)模块可通过对齐知识嵌入来提高融合性能。我们ZJLAB数据集的广泛实验表明,Prior-Lane以2.82%MIOU优于SOTA LANE检测方法,并且该代码将在以下位置发布:https:// github。 com/vincentqqb/priorlane。
translated by 谷歌翻译
在视觉检查形式中对纹理表面进行工业检查的最新进展使这种检查成为可能,以实现高效,灵活的制造系统。我们提出了一个无监督的特征内存重排网络(FMR-NET),以同时准确检测各种纹理缺陷。与主流方法一致,我们采用了背景重建的概念。但是,我们创新地利用人工合成缺陷来使模型识别异常,而传统智慧仅依赖于无缺陷的样本。首先,我们采用一个编码模块来获得纹理表面的多尺度特征。随后,提出了一个基于对比的基于学习的内存特征模块(CMFM)来获得判别性表示,并在潜在空间中构建一个正常的特征记忆库,可以用作补丁级别的缺陷和快速异常得分。接下来,提出了一个新型的全球特征重排模块(GFRM),以进一步抑制残余缺陷的重建。最后,一个解码模块利用还原的功能来重建正常的纹理背景。此外,为了提高检查性能,还利用了两阶段的训练策略进行准确的缺陷恢复改进,并且我们利用一种多模式检查方法来实现噪声刺激性缺陷定位。我们通过广泛的实验来验证我们的方法,并通过多级检测方法在协作边缘进行实用的部署 - 云云智能制造方案,表明FMR-NET具有先进的检查准确性,并显示出巨大的使用潜力在启用边缘计算的智能行业中。
translated by 谷歌翻译
根据一般静态障碍物检测的要求,本文提出了无人接地车辆局部静态环境的紧凑型矢量化表示方法。首先,通过融合LiDAR和IMU的数据,获得了高频姿势信息。然后,通过二维(2D)障碍物点的生成,提出了具有固定尺寸的网格图维护过程。最后,通过多个凸多边形描述了局部静态环境,该多边形实现了基于双阈值的边界简化和凸多边形分割。我们提出的方法已应用于公园的一个实用无人驾驶项目中,典型场景的定性实验结果验证了有效性和鲁棒性。此外,定量评估表明,与传统的基于网格地图的方法相比,使用较少的点信息(减少约60%)来代表局部静态环境。此外,运行时间(15ms)的性能表明,所提出的方法可用于实时局部静态环境感知。可以在https://github.com/ghm0819/cvr_lse上访问相应的代码。
translated by 谷歌翻译
自上而下的实例分割框架与自下而上的框架相比,它在对象检测方面表现出了优越性。虽然它有效地解决了过度细分,但自上而下的实例分割却遭受了过度处理问题。然而,完整的分割掩模对于生物图像分析至关重要,因为它具有重要的形态特性,例如形状和体积。在本文中,我们提出了一个区域建议纠正(RPR)模块,以解决这个具有挑战性的分割问题。特别是,我们提供了一个渐进式皇家模块,以逐渐将邻居信息引入一系列ROI。 ROI功能被馈入专门的进料网络(FFN)以进行提案框回归。有了其他邻居信息,提出的RPR模块显示了区域建议位置的校正显着改善,因此与最先进的基线方法相比,在三个生物图像数据集上表现出有利的实例分割性能。实验结果表明,所提出的RPR模块在基于锚固的和无锚的自上而下实例分割方法中有效,这表明该方法可以应用于生物学图像的一般自上而下实例分割。代码可用。
translated by 谷歌翻译
Recently, improving the robustness of policies across different environments attracts increasing attention in the reinforcement learning (RL) community. Existing robust RL methods mostly aim to achieve the max-min robustness by optimizing the policy's performance in the worst-case environment. However, in practice, a user that uses an RL policy may have different preferences over its performance across environments. Clearly, the aforementioned max-min robustness is oftentimes too conservative to satisfy user preference. Therefore, in this paper, we integrate user preference into policy learning in robust RL, and propose a novel User-Oriented Robust RL (UOR-RL) framework. Specifically, we define a new User-Oriented Robustness (UOR) metric for RL, which allocates different weights to the environments according to user preference and generalizes the max-min robustness metric. To optimize the UOR metric, we develop two different UOR-RL training algorithms for the scenarios with or without a priori known environment distribution, respectively. Theoretically, we prove that our UOR-RL training algorithms converge to near-optimal policies even with inaccurate or completely no knowledge about the environment distribution. Furthermore, we carry out extensive experimental evaluations in 4 MuJoCo tasks. The experimental results demonstrate that UOR-RL is comparable to the state-of-the-art baselines under the average and worst-case performance metrics, and more importantly establishes new state-of-the-art performance under the UOR metric.
translated by 谷歌翻译
近年来,多智能体加固学习(Marl)在各种应用中呈现出令人印象深刻的性能。但是,物理限制,预算限制以及许多其他因素通常会在多代理系统(MAS)上施加\ Texit {约束},这不能由传统的Marl框架处理。具体而言,本文重点介绍受约束的Mase,其中代理工作\纺织{合作}在各种限制下最大化预期的团队平均成本下的预期团队平均返回,并开发一个名为DECOM的\ TEXTIT {约束合作MARL}框架,名为DECOM这样的苗条。特别是,DECOM将每个代理人的策略分解为两个模块,这使得代理商之间的信息共享,以实现更好的合作。此外,通过这种模块化,DREM的训练算法将原始约束优化分为奖励的无约束优化和成本的约束满足问题。然后,Decom以计算有效的方式迭代地解决这些问题,这使得DECOM高度可扩展。我们还提供了对Decom策略更新算法的融合的理论保障。最后,我们在玩具和大规模(有500个代理)环境中使用各种类型的成本验证了DECOM的有效性。
translated by 谷歌翻译
组织病理组织分类是病理学癌症研究的基本任务。精确区分不同的组织类型是下游研究的好处,如癌症诊断,预后等。现有的作品主要利用计算机视觉中的流行分类骨干,以实现组织病理组织分类。在本文中,我们提出了一种超级轻型即插即用模块,名为金字塔深广阔的学习(PDBL),对于任何训练有素的分类骨架,以进一步提高分类性能而无需重新培训负担。我们模仿病理学家如何观察不同放大率的病理学幻灯片,并为输入图像构造图像金字塔,以获得金字塔内部信息。对于金字塔中的每个级别,我们通过我们提出的深层块(DB-Block)提取多种深度广泛的功能。我们用三个流行的分类骨干网,Shufflenetv2,EppositionNetB0和Reset50配备了PDBL,以评估我们建议模块在两个数据集(Kather Multiclass DataSet和LC25000数据集)上的提出模块的有效性和效率。实验结果表明,所提出的PDBL可以稳定地改善任何CNN骨架的组织级分类性能,特别是对于在训练样本(小于10%)中的小型时,特别是轻量级模型,这极大地节省了计算时间和注释工作。
translated by 谷歌翻译
为了解决复杂环境中的自主导航问题,本文新呈现了一种有效的运动规划方法。考虑到大规模,部分未知的复杂环境的挑战,精心设计了三层运动规划框架,包括全局路径规划,本地路径优化和时间最佳速度规划。与现有方法相比,这项工作的新颖性是双重的:1)提出了一种新的动作原语的启发式引导剪枝策略,并完全集成到基于国家格子的全球路径规划器中,以进一步提高图表搜索的计算效率,以及2)提出了一种新的软限制局部路径优化方法,其中充分利用底层优化问题的稀疏带系统结构以有效解决问题。我们在各种复杂的模拟场景中验证了我们方法的安全,平滑,灵活性和效率,并挑战真实世界的任务。结果表明,与最近的近期B型zier曲线的状态空间采样方法相比,全球规划阶段,计算效率提高了66.21%,而机器人的运动效率提高了22.87%。我们命名拟议的运动计划框架E $ \ mathrm {^ 3} $拖把,其中3号不仅意味着我们的方法是三层框架,而且还意味着所提出的方法是三个阶段有效。
translated by 谷歌翻译